Telegram Group & Telegram Channel
⚙️ Работает ли Adam при экстремально разреженных градиентах

Когда градиенты обновляются редко — например, в задачах обработки языка (NLP) или рекомендательных системах — может показаться, что базовый SGD будет более эффективным. Однако у Adam всё ещё есть свои преимущества.

💡 Почему Adam может быть полезен:
⭕️ Он масштабирует шаги обучения по каждому параметру отдельно, используя скользящие средние градиентов (1-го и 2-го порядка).
⭕️ Даже если градиенты редкие, Adam может обеспечить значимые апдейты по тем параметрам, которые активируются нечасто, например, для редких токенов в эмбеддингах.

⚠️ Но есть и подводные камни:
⭕️ Если параметр обновляется крайне редко, его скользящие средние могут оставаться почти нулевыми слишком долго → шаг становится почти нулевым.
⭕️ В таких условиях нужно особенно тщательно настраивать «beta1», «beta2» и «learning rate» — слишком «инерционные» настройки могут замораживать обновления навсегда.
⭕️ Примеры таких кейсов — миллионные эмбеддинг-таблицы в рекомендательных системах, где важна тонкая настройка скорости обучения для редких признаков.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
2



tg-me.com/ds_interview_lib/973
Create:
Last Update:

⚙️ Работает ли Adam при экстремально разреженных градиентах

Когда градиенты обновляются редко — например, в задачах обработки языка (NLP) или рекомендательных системах — может показаться, что базовый SGD будет более эффективным. Однако у Adam всё ещё есть свои преимущества.

💡 Почему Adam может быть полезен:
⭕️ Он масштабирует шаги обучения по каждому параметру отдельно, используя скользящие средние градиентов (1-го и 2-го порядка).
⭕️ Даже если градиенты редкие, Adam может обеспечить значимые апдейты по тем параметрам, которые активируются нечасто, например, для редких токенов в эмбеддингах.

⚠️ Но есть и подводные камни:
⭕️ Если параметр обновляется крайне редко, его скользящие средние могут оставаться почти нулевыми слишком долго → шаг становится почти нулевым.
⭕️ В таких условиях нужно особенно тщательно настраивать «beta1», «beta2» и «learning rate» — слишком «инерционные» настройки могут замораживать обновления навсегда.
⭕️ Примеры таких кейсов — миллионные эмбеддинг-таблицы в рекомендательных системах, где важна тонкая настройка скорости обучения для редких признаков.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/973

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?

In many cases, the content resembled that of the marketplaces found on the dark web, a group of hidden websites that are popular among hackers and accessed using specific anonymising software.“We have recently been witnessing a 100 per cent-plus rise in Telegram usage by cybercriminals,” said Tal Samra, cyber threat analyst at Cyberint.The rise in nefarious activity comes as users flocked to the encrypted chat app earlier this year after changes to the privacy policy of Facebook-owned rival WhatsApp prompted many to seek out alternatives.Библиотека собеса по Data Science | вопросы с собеседований from us


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA